对比性语言图像预训练(剪辑)已被证明可以学习具有出色传递性的视觉表示,从而实现了零击分类的有希望的准确性。为了进一步提高其下游性能,现有作品在剪辑上提出了其他可学习的模块,并通过几次训练集对其进行微调。但是,由此产生的额外培训成本和数据要求严重阻碍了模型部署和知识转移的效率。在本文中,我们引入了一种自由午餐的增强方法CALIP,以通过无参数注意模块来提高Clip的零拍摄性能。具体而言,我们指导视觉和文本表示相互交互,并通过注意探索跨模式的信息特征。由于预训练大大降低了两种方式之间的嵌入距离,因此我们在注意力中丢弃所有可学习的参数,并在双向更新多模式特征,从而使整个过程无参数且无培训。通过这种方式,图像与文本感知信号混合在一起,文本表示形式被视觉引导以获得更好的自适应零射击对齐。我们在14个数据集的各种基准上评估CALIP,用于2D图像和3D Point Cloud几乎没有分类,显示出一致的零弹性性能改进了夹子。基于此,我们进一步在Calip的注意模块中插入了少量线性层,并在少量射击设置下验证我们的鲁棒性,与现有方法相比,这也可以实现领先的性能。这些广泛的实验证明了我们的方法在有效增强夹子方面的优势。
translated by 谷歌翻译
在基于脑电图的情感计算领域,跨数据库情绪识别是一项极具挑战性的任务,受许多因素的影响,这使得通用模型产生了不令人满意的结果。面对缺乏脑电图信息解码研究的情况,我们首先分析了通过样本空间可视化,样本聚合现象量化和对五个公共数据集的能量模式分析的不同脑电图信息(个人,会话,情绪,试验)对情绪识别的影响。并基于这些现象和模式,我们提供了各种脑电图差异的处理方法和可解释的工作。通过分析情绪特征分布模式,发现了个体的情感特征分布差异(IEFDD)。在分析了IEFDD遭受的传统建模方法的局限性之后,我们提出了基于重量的通道模型矩阵框架(WCMF)。为了合理地表征情绪特征分布模式,设计了四种重量提取方法,最佳是校正t检验(CT)重量提取方法。最后,WCMF的性能在两种实验中在跨数据库任务上进行了验证,这些实验模拟了不同的实践场景,结果表明WCMF具有更稳定和更好的情感识别能力。
translated by 谷歌翻译
对话总是与某些主题有关。但是,由于预先训练的语言模型(PLM)的输入长度限制,在当前对话生成模型中同时将对话历史记录和主题信息融合在一起是具有挑战性的。为了扩展PLM可以使用的信息,我们使用具有多个融合中的频道(FID)的某些提示(FID)编码主题和对话历史信息信息,并探索三个不同频道设置的影响。在本文中,我们的实验集中在一个名为NaturalConv的特定中国数据集上,在该数据集中,对话围绕着最近的新闻。我们彻底比较了不同的对话模型和不同的FID频道设置。经验结果表明,通过将我们提出的整个通道与其他历史频道相结合,我们的方法可以在NaturalConv上实现竞争性能,从而可以从过长的文本中编码各种信息。
translated by 谷歌翻译
无锚的检测器基本上将对象检测作为密集的分类和回归。对于流行的无锚检测器,通常是引入单个预测分支来估计本地化的质量。当我们深入研究分类和质量估计的实践时,会观察到以下不一致之处。首先,对于某些分配了完全不同标签的相邻样品,训练有素的模型将产生相似的分类分数。这违反了训练目标并导致绩效退化。其次,发现检测到具有较高信心的边界框与相应的地面真相具有较小的重叠。准确的局部边界框将被非最大抑制(NMS)过程中的精确量抑制。为了解决不一致问题,提出了动态平滑标签分配(DSLA)方法。基于最初在FCO中开发的中心概念,提出了平稳的分配策略。在[0,1]中将标签平滑至连续值,以在正样品和负样品之间稳定过渡。联合(IOU)在训练过程中会动态预测,并与平滑标签结合。分配动态平滑标签以监督分类分支。在这样的监督下,质量估计分支自然合并为分类分支,这简化了无锚探测器的体系结构。全面的实验是在MS Coco基准上进行的。已经证明,DSLA可以通过减轻上述无锚固探测器的不一致来显着提高检测准确性。我们的代码在https://github.com/yonghaohe/dsla上发布。
translated by 谷歌翻译
知识图完成最近已广泛研究,以通过主要建模图结构特征来完成三元组中的缺失元素,但对图形结构的稀疏性敏感。期望解决这一挑战的相关文本,例如实体名称和描述,充当知识图(kgs)的另一种表达形式(kgs)。已经提出了几种使用两个编码器的结构和文本消息的方法,但由于未能平衡它们之间的权重有限。并在推理期间保留结构和文本编码器,也遭受了沉重的参数。通过知识蒸馏的激励,我们将知识视为从输入到输出概率的映射,并在稀疏的kgs上提出了一个插件框架VEM2L,以将从文本和结构消息提取到统一的知识中融合知识。具体而言,我们将模型获取的知识分配为两个不重叠的部分:一个部分与训练三元组合的合适能力有关,可以通过激励两个编码者互相学习训练集来融合。另一个反映了未观察到的查询的概括能力。相应地,我们提出了一种新的融合策略,该策略由变量EM算法证明,以融合模型的概括能力,在此期间,我们还应用图形致密操作以进一步缓解稀疏的图形问题。通过结合这两种融合方法,我们最终提出了VEM2L框架。详细的理论证据以及定量和定性实验都证明了我们提出的框架的有效性和效率。
translated by 谷歌翻译
较轻,更快的型号对于在资源有限设备(例如智能手机和可穿戴设备)上部署视频超分辨率(VSR)至关重要。在本文中,我们开发了残留的稀疏连接学习(RSCL),这是一种结构化的修剪方案,以减少卷积内核的冗余,并获得较小的性能下降的紧凑型VSR网络。但是,残留的块要求将跳过的修剪过滤器索引和残留连接相同,这对于修剪很棘手。因此,为了减轻剩余块的修剪限制,我们通过保留特征通道并仅在重要的通道上运行来设计残留的稀疏连接(RSC)方案。此外,对于Pixel-Shuffle操作,我们通过将几个过滤器分组为修剪单元来设计一种特殊的修剪方案,以确保修剪后功能通道空间转换的准确性。此外,我们引入了时间登录(TF),以减少具有时间传播的隐藏状态的修剪误差放大。广泛的实验表明,提出的RSCL在定量和质量上明显优于最新方法。代码和模型将发布。
translated by 谷歌翻译
对象目标视觉导航是一项具有挑战性的任务,旨在仅根据其视觉观察来指导机器人找到目标对象,并且该目标仅限于训练阶段中指定的类。但是,在实际家庭中,机器人可能需要处理许多对象类,并且在培训阶段,所有这些类都很难包含。为了应对这一挑战,我们通过将零照片学习与对象目标视频导航相结合,提出了一个零摄像的对象导航任务,该目标旨在指导机器人找到属于新颖类的对象而无需任何培训样本。这项任务导致需要将学习的政策推广到新颖的班级,这是使用深度强化学习的对象导航问题较小的问题。为了解决这个问题,我们利用“阶级无关”的数据来减轻培训阶段中指定的类过度拟合的输入。与类无关的输入包括检测结果和单词嵌入的余弦相似性,并且不包含任何与类相关的视觉特征或知识图。在AI2 Thor平台上进行的广泛实验表明,我们的模型在可见和看不见的类中都优于基线模型,这证明我们的模型对类别的敏感性较小,并且可以更好地概括。我们的代码可在https://github.com/pioneer-innovation/zero-sero-shot-object-navigation上找到
translated by 谷歌翻译
相关时间序列(CTS)预测在许多网络物理系统中起着重要作用,其中多个传感器发出捕获互连过程的时间序列。基于深度学习的解决方案,即提供最先进的CTS预测性能,采用各种时空(ST)块,能够在时间序列之间模拟时间依赖性和空间相关性。但是,仍然存在两个挑战。首先,ST-Blocks手动设计,这是耗时和昂贵的。其次,现有预测模型只需多次堆叠相同的ST块,这限制了模型潜力。为了解决这些挑战,我们提出了能够自动识别高竞争力的ST-Blocks以及使用不同拓扑连接的异构ST-Block的预测模型,而不是使用简单堆叠连接的相同的ST-Block。具体而言,我们设计微型和宏搜索空间,以模拟ST-Blocks的架构和异构ST-Block之间的连接,并且我们提供了一种能够共同探索搜索空间来识别最佳预测模型的搜索策略。关于八个常用CTS预测基准数据集的广泛实验可以证明我们的设计选择,并证明AutoCTS能够自动发现智能现有人设计型号的预测模型。这是“AutoCTS:自动相关时间序列预测”“的扩展版本,以显示在PVLDB 2022中。
translated by 谷歌翻译
生成的对抗网络(GANS)已被证明在图像生成任务中非常成功,但GaN培训具有不稳定问题。许多作品通过手动修改GaN架构提高了GaN训练的稳定性,这需要人类专业知识和广泛的试验和错误。因此,目的是自动化模型设计的神经结构搜索(NAS)已经应用于在无条件图像生成的任务上搜索GAN。早期的NAS-GaN仅用于搜索生成器来减少困难。最近的一些作品试图搜索发电机(G)和鉴别器(D)来提高GaN性能,但它们仍然遭受搜索过程中GaN培训的不稳定性。为了缓解不稳定问题,我们提出了一种高效的两阶段进化算法(EA)基于NAS框架来发现GANS,Dubbed \ TextBF {eagan}。具体而言,我们将G和D的搜索分成两个阶段,提出了重量重置策略以提高GaN训练的稳定性。此外,我们执行进展操作以基于多个目标生成帕累托 - 前部架构,导致G和D的优越组合。通过利用重量分享策略和低保真评估,EAGAN可以显着缩短搜索时间。 EAGAN在CIFAR-10上实现了高竞争力的结果(= 8.81 $ \ PM $ 0.10,FID = 9.91),并超越了STL-10数据集上的先前NAS搜索的GAN(= 10.44 $ \ PM $ 0.087,FID = 22.18)。
translated by 谷歌翻译
姿势估计准确性的提高是目前移动机器人中的基本问题。本研究旨在改善观察的使用以提高准确性。选择要点的选择会影响姿势估计的准确性,导致观察贡献如何影响系统的问题。因此,分析了信息对姿势估计过程的贡献。此外,配制了不确定性模型,灵敏度模型和贡献理论,提供了一种计算每种残留项的贡献的方法。所提出的选择方法已经理解证明能够实现全局统计最优。所提出的方法在人工数据模拟上进行测试,与基特基准进行比较。该实验揭示了与Aloam和Mloam对比的优异结果。所提出的算法在LIDAR Idomatry和LIDAR惯性内径术中使用不同的LIDAR传感器,使用不同的扫描模式,展示其提高姿态估计精度的有效性。随后推断出两个激光扫描传感器的新配置。该配置对于先前地图中的三维姿态定位是有效的,并且产生厘米级的结果。
translated by 谷歌翻译